我们介绍了一种用于将一个自然形象的视觉外观转移到另一个自然形象的方法。具体地,我们的目标是生成一个图像,其中源结构图像中的对象是“绘制”的目标外观图像中的语义相关对象的视觉外观。我们的方法通过训练一个单个结构/外观映像对给出一个发电机作为输入。将语义信息集成到我们的框架中 - 解决此任务的关键组件 - 我们的主要思想是利用作为外部语义的预训练和固定视觉变压器(VIT)模型。具体而言,我们从深毒性特征中提取的结构和外观的新颖表示,从学习的自我关注模块中解开它们。然后,我们建立一个客观函数,即接头所需的结构和外观表示,在vit特征的空间中相互交互。我们术语“拼接”的框架不涉及对抗性培训,也不需要任何额外的输入信息,例如语义分割或通信,并且可以产生高分辨率结果,例如,在高清中工作。我们在物体数量,姿势和外观的显着变化下,我们展示了各种内野图像对的高质量结果。
translated by 谷歌翻译